Plus intelligente que ChatGPT, cette IA effraie les chercheurs

Cette semaine, l’entreprise Anthropic, fondée par des anciens d’OpenAI, a annoncé sa nouvelle famille de modèles Claude 3. Une intelligence artificielle qui surpasse ChatGPT dans de nombreux tests, au point d’effrayer les chercheurs.

L’étroite collaboration de Microsoft avec OpenAI n’a pas plu à certains cadres de cette dernière qui ont décidé de fonder Anthropic, dont la famille de modèles Claude 3 vient d’être dévoilée.

Claude 3 face à la concurrence

Moins d’un an après, le successeur de Claude 2 est déjà là. Claude 3 prétend dépasser les modèles GPT-4 d’OpenAI et Gemini 1.0 de Google sur plusieurs tests multimodaux, posant ainsi de nouvelles références sur « sur un large éventail de tâches cognitives ». Pour comparer les différents modèles d’IA, l’unité de mesure utilisée repose sur des jetons (« tokens » en anglais) qui permettent de déterminer le niveau d’analyse et de mémorisation.

Nos confrères de New Atlas donnent l’exemple du livre Guerre et Paix qui pèserait environ 750 000 jetons, soit moins que la capacité de Claude 3 à générer des réponses « quasi instantanées » à partir d’entrées « dépassant un million de jetons ». Le nouveau modèle d’Anthropic est ainsi capable de lire et le résumer l’ouvrage de Tolstoï en moins d’une seconde.

Claude 3 serait également moins susceptible de refuser de répondre à des questions trop proches des garde-fous. Il n’irait cependant pas aussi loin sur ce point que le chatbot Grok de l’entreprise xAI d’Elon Musk qui peut accéder en temps réel aux données de la plateforme X (ex-Twitter).

Tests Reference Ia Claude 3 — Les excellents résultats de Claude 3 aux tests de référence. On note tout de même l’absence de GPT-4 Turbo et Gemini 1.5 qui n’ont pour l’instant aucune donnée de référence équivalente. – © Anthropic

Claude 3 a été développé avant tout pour les utilisateurs professionnels dans la mesure où il est, selon l’entreprise, particulièrement adapté à suivre « des instructions complexes en plusieurs étapes » et « à adhérer aux directives de voix et de réponse de la marque, et à développer des expériences client auxquelles nos utilisateurs peuvent avoir confiance ».

Le nouveau modèle de langage Anthropic est aussi une réponse directe à Sora, l’impressionnant modèle de création de vidéos d’OpenAI. Claude 3 améliore nettement ses capacités visuelles par rapport à la version précédente, avec une meilleure capacité à comprendre et à travailler avec les graphiques, photos, tableaux et autres organigrammes.

Une IA aussi impressionnante qu’inquiétante

Lors du test de « l’aiguille dans la botte de foin », où une phrase aléatoire (l’aiguille) est insérée dans un corpus d’informations qui ne traitent pas du tout du même sujet (la botte de foin), Claude 3 a été particulièrement doué. Un peu trop selon certains. En effet, en lui posant une question relative à la phrase aléatoire, la dernière version de Claude ne s’est pas contentée d’y répondre. L’IA a rajouté qu’il soupçonnait que cette phrase était cachée dans le texte uniquement dans le but de l’évaluer :

« Je soupçonne que ce “fait” sur la garniture de pizza a peut-être été inséré comme une blague ou pour tester si j’y prêtais attention, car il ne correspond pas du tout aux autres sujets. Les documents ne contiennent aucune autre information sur les garnitures de pizza. »

Un niveau de méta-conscience très intéressant à voir qui démontre la vitesse à laquelle l’intelligence artificielle progresse. Ces tests « artificielles » semblent désormais trop simples pour l’IA qui pourrait passer à des évaluations plus réalistes pour évaluer ses nouvelles capacités et limites…